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静态 图 像 中 采用 混合 卷 积 结构 进行 人 群 密度 估计 


范 绿源 ， 全 明 厦 ?+， 李 敏 , 南 吴 
(上 海 电力 学 院 电子 与 信息 工程 学 院 ， 上 海 200090) 


摘 要 : 提出 了 一 种 混合 卷 积 神经 网 络 用 于 人 群 数量 的 感知 计算 , 在 高 度 密集 的 场景 中 可 以 准确 地 预测 人 群 密度 图 。 
模型 仅 由 两 个 部 分 组 成 : 前 端 为 扩张 卷 积 神 经 网 络 提取 二 维特 征 ; 后 端 采用 分 数 步 长 卷 积 神经 网 络 降 低下 采样 中 的 
信息 损失 。 为 了 验证 和 分 析 算 法 性 能 ， 模 型 设计 基于 当前 较为 流行 的 Shanghai Tech 数据 集 ， 使 用 回归 问题 的 评价 指 
标 ， 即 平均 绝对 误差 (MAE) 和 均 方 误差 (MSE) 作为 评估 算法 性 能 的 标准 。 并 且 在 Shanghai Tech (MAE=100.8)， 
UCF_CC_50 (MAE=305.3) 与 WorldExpo'10 数据 集 上 进行 测试 , 实验 表明 模型 在 密集 场景 下 较 以 往 的 方法 有 效 降低 
了 MAE 和 MSE， 提 高 了 密集 人 群 计 数 的 准确 率 。 
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Crowd density estimation using hybrid convolution structure in static images 


Fan Lyuyuan, Tong Minglei', Li Min, Nan Hao 
(School of Electronics & Information Engineering, Shanghai University of Electric Power, Shanghai 200090, China) 


Abstract: This paper developed a hybrid convolution neural network for perceptual crowd counting, which could accurately 
predict density maps in extremely crowded scenes. It consists of merely two components: the front-end is a dilated 
convolutional neural network to extract two-dimensional features; the back-end deployed a fractionally strided convolution 
to lower the loss of image information caused by down-sampling. This paper designed the model structure based on the 
dataset Shanghai Tech, then in an attempt to acknowledge and analyze the performance of the algorithm, , and afterwards 
made use of the evaluation indicators of the regression problem, the average absolute error (MAE) and the mean-square 
error (MSE) as the criteria. Additionally, testing the method on Shanghai Tech (MAE=100.8) , UCF_CC_50 (MAE=305.3) 
and WorldExpo'10 datasets while the experiment results reveal that the proposed model can effectively reduce MAE and 
MSE when compared with previous methods. 
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0 引言 如 高 斯 处 理 回 归 、 线性 回归 、SVM 回归 等 求 出 人 群 特征 与 人 
本 数 之 间 的 函数 。 该 类 方法 中 像素 统计 特征 中 与 人 群 密度 之 间 

作为 一 种 人 群 控 制 和 管理 的 重要 手段 ， 人 群 密度 的 精确 的 关系 较 简单 ， 训 练 后 的 分 类 器 泛 化 能 力 强 。 但 此 类 方法 依 
统计 ， 是 当前 视频 监控 领域 的 一 个 重要 研究 方向 。 某 些 特定 赖 于 提取 前 景 ， 若 前 景 提取 不 好 则 估计 效果 较 差 ， 且 密集 场 
场景 人 群 数量 的 信息 统计 ， 在 社会 安全 、 交 通 流 控 制 方面 有 具 景 下 正确 率 较 低 ; 而 基于 图 像 纹 理 特征 的 人 群 数量 估计 方 
有 广泛 的 应 用 价值 。 由 于 人 和 群 相互 遮挡 以 及 所 处 环境 复杂 ， 法 虽 在 一 定 程度 上 解决 了 在 密集 人 群 中 预测 效果 差 的 问题 ， 
现 有 的 方法 在 实际 应 用 中 很 难 满足 要 求 。 卷 积 神经 网 络 在 特 但 此 方法 对 稀 玻 人 群 估计 性 能 不 佳 。 另 外 ， 由 于 直接 在 原始 
征 学 习 中 具有 显著 的 性 能 ， 可 以 自动 、 可 靠 地 获取 监测 人 数 图 像 上 提取 纹理 特征 ， 容 易 受 背景 纹理 干扰 。 毕 上 所 述 传统 
或 人 群 密度 ， 报 警 和 预测 人 群 的 某 些 异常 行为 ， 而 且 可 以 用 方法 在 预测 密集 人 群 密度 的 表现 远 未 达到 预期 。 在 卷 积 神经 
于 人 群 模拟 ， 人 群 行为 心理 学 与 群体 心理 学 研究 。 网 络 CNN (convolutional neural network) 出 色 完 成 各 种 计算 
期 的 研究 方法 中 往往 采用 行人 检测 的 方法 间接 进行 ， 机 视觉 任务 的 启发 下 ， 许 多 基于 CNN 的 方法 得 到 快速 发 展 ， 
如 采用 HOG(histograms of oriented gradients) 特 征 ， 当 人 群 比 并 在 人 和 群 计 数 [7 方面 取得 了 很 大 进步 ， 某 些 基 于 CNN 方法 
较 稀 琉 、 人 与 人 之 间 不 存在 较 大 的 重 关 时 ， 能 得 到 一 个 比较 如 MCNN (multi-column convolutional neural network) 设计 
准确 的 人 数 ， 但 当 人 群 变 得 比较 密集 时 ， 这 种 方法 得 出 的 结 多 列 结构 利用 不 同 尺度 的 感受 野 提取 特征 由 ， 级 联 多 任务 学 
果 将 不 可 信 。 文 献 [2] 提 出 组 合 HOG 特征 和 颜色 直方 图 特征 习 Cascaded-MTL 网 络 中 通过 反 卷 积 恢复 空间 分 辨 率 外 ， 极 
的 检测 方法 ， 通 过 联合 两 种 特征 的 SVM (support vector 端 密集 人 群 图 像 中 利用 多 源 信息 09 回 归 的 人 群 计数 等 。 但 是 
machine) 计算 结果 进行 目标 判定 ， 消 除 HOG 特征 检测 产生 在 感受 野 限 制 和 图 片 细节 丢失 问题 方面 ， 算 法 仍 有 一 定 的 局 
的 部 分 误 检 。 还 有 一 些 基于 回归 的 方法 ， 一 般 通过 回归 模型 限 性 ， 虽 然 在 拥挤 的 环境 中 通过 回归 计数 是 可 靠 的 ， 但 没有 
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对 象 位 置 的 信息 ， 它 们 对 于 低 密度 人 群 的 预测 往往 被 高 估 。 
此 类 方法 的 鲁 棒 性 取决 于 统计 数据 的 稳定 性 ， 而 在 高 密度 场 
景 中 ， 样 本 数量 往往 比较 小 ， 不 能 帮助 探索 其 内 在 的 统计 原 
理 。 因 此 ，Lempitsky 等 人 0 提出 了 一 种 在 局 部 通道 特征 与 
对 应 的 目标 密度 图 之 间 进 行 线性 映射 的 新 方法 ， 将 图 像 中 存 
在 的 空间 信息 结合 起 来 。 最 近 ，Sam 等 人 (3 提出 了 一 种 利用 
密度 等 级 分 类 器 对 特定 输入 块 而 选择 不 同 回归 函数 的 可 切换 


式 CNN。 这 两 种 解决 方案 目前 达到 了 最 先进 的 性 能 ,并且 两 
者 都 使 用 基于 多 列 的 体系 结构 (MCNN ) 和 密度 级 分 类 器 031。 


然而 以 上 方法 的 主要 不 足 体现 在 : a) 多 列 CNN 网 络 较 宽 ,这 
种 扩张 的 网 络 结构 需要 更 多 的 时 间 进 行 训练 ，b) 上 述 的 两 种 
解决 方案 均 用 到 密度 级 分 类 器 ,因为 对 象 数量 的 大 范围 变化 ， 
在 实时 拥挤 场景 分 析 中 ， 密 度 水 平 的 粒度 难以 定义 ; c) 使 用 
分 类 器 意味 着 需要 实现 更 多 的 列 ， 这 使 得 设计 更 加 复杂 。 

考虑 到 上 述 存 在 的 问题 ， 本 文 提出 一 种 在 集群 场景 下 编 
码 更 广 、 更 深 特 征 的 新 方法 ， 并 生成 高 品质 的 密度 图 。 模 型 
通过 扩张 卷 积 来 增加 感受 野 ， 同 时 减少 网 络 参数 的 数量 ， 
且 最 终 利 用 分 数 步 长 〈 转 置 ) 卷 积 层 来 尽 可 能 地 恢复 细节 习 
失 。 
1 ”密度 图 生成 算法 

训练 数据 中 密度 图 质量 决定 了 人 数 统计 算法 的 性 能 。 首 
先 将 带 有 标签 的 人 头像 转换 为 人 群 密度 图 。 如 果 在 像素 ** 处 
存在 头 部 ， 将 其 表示 为 5 函数 5(x-xs)。 因 此 ， 有 具有 N 个 头 标 
的 图 像 可 以 表示 为 一 个 函数 : 


f(W=26G—s) GD 


为 了 将 其 转换 为 连续 密度 函数 , 使 用 高 斯 核 Q cs 来 卷 积 
该 函数 ， 使 得 密度 为 p(x*)=f(x)*G;(x) 。 事 实 上 ， 每 个 二 是 
3D 场景 中 地 面 人 群 密度 的 样本 ,并且 由 于 透视 失真 ， 像 素 与 
不 同样 本 相关 的 * 对 应 于 场景 中 不 同 大 小 的 区 域 。 因 此 ， 为 
了 准确 估计 人 群 密度 ” ， 需 要 考虑 由 地 平面 与 图 像 平面 之 间 
的 单 应 性 引起 的 失真 。 假 设 在 每 个 头 部 周围 ， 人 群 相对 均匀 


范 绿源 ， 等 : 静态 图 像 中 采用 混合 卷 积 结构 进行 人 群 密度 估计 


ChinaX 


的 原始 密度 图 ， 密 度 图 左上 角 


为 标签 人 数 。 
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(a) 原 始 图 片 


(a) Original image 


(b) 密 度 图 (sum(density)=817.0) 


(b) Density map(sum(density)=817.0) 


图 1 


图 片 到 密度 图 


Fig.1 Image to density map 


2 ”网 络 结构 


首先 网 络 整体 配置 为 ， 


密度 图 〈 如 每 平方 米 有 多 少 人 ) ;， 然后 通 


设计 的 基本 思想 是 部 署 双 列 扩张 卷 积 ， 用 
并 且 生 成 高 质量 的 密度 图 而 不 是 粗略 地 


受 野 的 高 级 别 特征 ， 


分 布 ， 那 么 头 部 和 其 最 近 的 上 个 头 部 《在 图 像 中 ) 之 间 的 平 
均 距离 给 出 几何 失真 的 合理 估计 (由 透视 效应 引起 ) 。 因 此 ， 
应 该 根据 图 像 内 每 个 人 的 头 部 大 小 来 确定 扩散 参数 。 

很 多 情况 下 由 于 遮挡 而 难以 精确 地 获得 头 部 的 大 小 ， 找 
到 头 部 大 小 与 密度 图 之 间 的 基本 关系 也 非常 困难 。 通 常 头 部 
大 小 与 拥挤 场景 中 两 个 相 邻 头 部 中 心 之 间 的 距离 有 关 ， 所 以 
根据 其 与 最 近邻 的 平均 距离 自 适 应 地 确定 每 个 人 的 参数 。 对 
于 给 定 图 像 中 的 每 个 头 *， 将 到 它 的 个 最 近邻 的 距离 表示 
为 {di, dyi,..., da} o 平均 距离 为 


DVD d, O) 


因此 ， 与 羡 相 关 的 像素 对 应 于 荆 上 的 区 域 。 为 了 估计 像 
素 二 周围 的 人 群 密度 ,需要 将 5(x-*) 与 具有 与 4; 成 比例 的 方 
差 6; 的 高 斯 核 进行 卷 积 ， 更 确切 地 说 ， 密 度 2 应 该 是 


p(W)= 6-5)*6, (x), with o,;= pad, 


(3) 


对 于 某 些 参数 5 ， 将 标签 f 与 密度 内 核 进行 卷 积 ， 该 密 
度 内 核 适应 于 每 个 数据 点 周围 的 局 部 几何 分 布 ， 称 为 几何 自 
适应 内 核 。 文 献 [8] 中 的 经 验 值 8=03 给 出 了 最 好 的 结果 。 模 
型 生成 的 密度 估计 图 需要 与 数据 集 的 真实 密度 图 作 比 较 ， 产 
生 的 误差 损失 反 向 传播 给 网 络 ， 使 训练 向 损失 减 小 的 梯度 方 
向 进行 ,标签 密度 图 的 准确 率 很 大 程度 上 影响 模型 的 可 行 性 ， 
效果 如 图 1 所 示 。 其 中 图 1 (a) 为 原始 图 片 ，(b) 为 相应 


扩展 网 络 复杂 度 。 
后 给 出 了 相应 的 j 
2.1 


在 文献 [14] 


输入 一 张 图 像 ， 输 出 对 应 的 人 群 


积分 获得 人 数 。 


在 本 章 中 首先 介绍 了 提 H 


| 练 方法 。 


多 元 卷 积 结构 配置 


[se 月 


入 的 1/8; 继续 


一 步 缩小 ， 


， 其 模型 的 前 端 输出 图 片 大 小 是 原始 输 
登 更 多 的 卷 积 层 和 池 化 层 
且 很 难 生成 高 质量 的 密度 图 ， 所 以 模型 后 端 采 


9 


8 的 体系 结构 ， 然 


输出 大 小 将 进 


用 扩张 卷 积 层 ， 


于 提取 更 深 的 显著 怕 


辨 率 。 受 该 文献 的 


因 其 可 


前 端 ， 


特征 ， 


本 文 则 是 先 利用 


启发 ， 本 文 模型 采 


Rade 


FE 信息 以 及 提高 输出 分 
扩张 卷 积 作为 网 络 的 


以 通过 增 大 感受 野 获 取 更 丰富 的 特征 , 文献 [14] 
是 在 分 辨 率 已 经 降 到 很 低 的 情况 下 再 使 用 扩张 卷 积 


有 捉 更 多 


五 


来 。 该 过 程 使 下 采样 
率 虽 不 会 得 到 提升 ， 但 是 这 样 可 以 将 小 目标 分 辩 率 低 和 


小 的 问题 还 原 。 医 


扩张 卷 积 获取 更 多 的 
用 转 置 卷 积 将 图 像 尺寸 增 大 为 原来 的 2 倍 。 
层 数 少 、 结 构 简单 ， 经 过 前 端 网 络 ( 含 两 个 六 
原始 输入 的 14， 再 经 过 转 置 卷 积 恢复 为 原 图 
先 将 图 像样 本 下 采样 降低 分 辨 率 ， 然 后 再 用 上 采样 还 原 


的 样本 分 辩 率 降低 ， 再 


图 像 信息 。 


利 


于 设计 的 模型 


也 化 层 ) 后 仅 为 


大 小 的 1/2 。 


上 采样 后 分 辩 


四 积 


此 应 | 


Tl 


选取 效果 最 好 的 模型 
对 象 ， 测 试 将 在 第 3 章 给 4 


分 数 步 长 卷 积 层 作 为 后 端 对 前 端 输 
tH 层 进行 上 采样 ， 可 以 从 一 定 程度 上 补充 下 采样 造成 的 图 片 
旧 节 损失 。 模 型 前 端 基于 
FP 加 入 扩张 率 参 数 以 此 来 


MCNNISI 的 分 支 结 构 ， 并 在 卷 积 核 


1 大 感受 野 。 为 了 减少 网 络 参数 ， 


9 ， 将 四 种 类 型 的 双 列 卷 积 组 合作 为 实验 


h 详 


田 讨论 ， 最 终 选择 


个 相对 较 
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好 的 模型 ， 考 虑 到 模型 的 稳定 性 ， 即 选择 MSE 最 低 的 模型 
(MAE 非 最 小 值 ) 。 网 络 的 整体 结构 如 图 


ChinaXiv 合 作 期 刊 
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间 的 损失 。 


2 所 示 。 


为 了 简化 网 络 ， 除 了 卷 积 核 的 大 小 和 数量 ， 对 所 有 卷 积 
列 使 用 相同 的 结构 (conv - pool - conv - pool) 。 最 大 池 化 作 


用 于 每 个 2x2 区 域 ， 并 且 采 / 


整流 线性 单元 (parametric 


rectified linear unit，PReLU) 作为 激活 函数 。 


于 透视 失真 ， 图 像 通常 包含 尺寸 相 异 的 头 部 ， 
同 尺 寸 感受 野 的 卷 积 核 不 可 


‘xX7@ 2 


SN 


治 吐 术 秆 洋子 


lIXl@!1 


图 2 多 元 卷 积 网 络 结构 


Fig.2 Hybrid convolution network structure 


有 相 
能 捕获 不 同 尺度 的 人 群 密度 特 


征 。 因 
原始 图 


此 使 用 


k 有 不 后 


的 2x2 像素 窗 


大 小 的 
像 到 密度 图 的 映射 ， 即 县 
大 头 部 对 应 的 密度 图 
复杂 度 〈 要 被 优化 的 参数 的 数目 ) ， 使 ) 
用 于 具有 较 大 卷 积 核 的 卷 积 层 。 例 如 ， 网 络 前 端 扩张 率 为 2 
的 卷 积 列 ，9X9 大 小 的 卷 积 核 取 16 个 ， 而 7X7 的 取 32 个 。 
后 端 结合 前 端 卷 积 层 的 输 昌 
并 采用 大 小 为 1xl 的 卷 积 核 进行 卷 积 用 于 生成 高 质量 密度 
图 。 网 络 配置 的 详细 介绍 见 表 1。 所 有 的 卷 积 层 都 使 用 填充 
(padding ) 来 保持 以 前 的 大 小 不 变 。 卷 积 层 的 参数 表示 为 
“conv(kernel size) @ (number of filters)”, 最 大 池 化 层 在 步 长 2 


上 进行 建 模 更 有 效 ; 


,通过 转 置 


局 部 感受 野 的 卷 积 核 来 学 习 从 
有 较 大 感受 野 的 卷 积 核 在 较 
同时 为 了 减少 计算 
j 较 少数 量 的 卷 积 核 


卷 积 层 还 原 图 片 大 小 ， 


口上 进行 ， 转 置 〈 分 数 步 长 ) 卷 积 层 表 示 为 


“ConvTransposed(kernel size) @ (number of filters)”, PReLU 


被 用 作 非 线性 激活 层 。 
然后 使 用 欧 氏 距离 测量 真实 值 与 预测 密度 之 间 的 差异 。 。 度 图 管 到 
N 2 感受 
0)= 训 0) -ro 加 
中 :0 是 网 络 中 一 组 可 学 习 参 数 :是 训练 图 像 的 数量 : xX 
是 输入 图 像 ，% 是 图 像 的 真实 密度 ，Y(X,0) 代表 由 模型 预测 
密度 ， 其 随 样本 与 参数 而 变化 ， 工 是 预测 密度 与 真实 密度 之 


Table 1 


表 1 


网 络 参数 配置 


Parameters of network configuration 


第 37 卷 第 3 期 


Front-end(double-column) 


Back-end(No Dilation) 


Dilation rate =2 Dilation rate =3 Conv3x3 @ 24 
Conv9x9 @ 16 Conv7x7 @ 20 Conv3x3 @ 32 
Max-pooling Max-pooling ConvTranspose4x4@16 
Conv7x7 @ 32 Conv5x5 @ 40 PReLU 
Max-pooling Max-pooling Max-pooling 
Conv7x7 @ 16 Conv5x5 @ 20 Convlxl @ 1 
Conv7x7 @ 8 Conv5x5 @ 10 Max-polling 
模型 最 终生 成 密度 估计 图 的 效果 如 图 3 (c) 所 示 。 每 列 
图 由 上 到 下 分 别 是 原始 图 片 、 对 应 人 群 密度 图 、 预 测 人 群 密 
度 图 (输入 图 片 来 自 Shanghai tech 数据 集中 ) 。 图 3 (a) 左 
的 原始 图 像 尺 寸 为 1024x768， 相 对 应 的 标 计 人 数 〈gt_count) 


817， 估 计 人 数 (et_count) 834; 3 (a) 右 的 原始 图 像 尺 


寸 为 1024x687， 对 应 的 标记 人 数 361， 估 计 人 数 355 。 


(a) 原 始 图 


(a) Original image 


于 


gt_count:817 


(b) 对 应 人 群 密度 图 


gt_count:361 


(b) Corresponding crowd density maps 


et_count:834 


(c) 预 测 人 群 密度 


区 | 


et_count:355 


(c) Estimated crowd density maps 


图 3 原始 密度 图 与 4 


成 密度 图 对 比 


Fig. 3 Comparison of original and generated density maps 


本 文 设计 了 一 个 易于 训练 的 基于 深度 卷 积 神经 网 络 的 密 


器 。 模 型 使 / 


纯 卷 积 层 作为 核心 ， 支 持 灵 活 分 辩 率 
图 像 输入 。 模 型 利用 空洞 (扩张 〉 卷 积 层 作为 前 端 以 增 大 
[分 数 步 长 卷 积 层 作为 后 端 ， 以 恢复 其 空间 分 辩 率 。 


利用 这 种 简单 的 结构 ， 降 低 了 网 络 参数 的 数量 ， 方 便 了 模型 


的 训练 。 此 外 ， 在 Shanghai tech 数据 集 part_A 和 part_B 上 ， 
计数 结果 优 于 之 前 人 群 计 数 解决 方案 中 的 MAE。 
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2.2 扩张 卷 积 和 转 置 卷 积 与 Typel 配置 区 别 仅 在 于 第 2 列 (7x7, 5x5) 与 第 3 列 (5x5， 


模型 输入 为 任意 大 小 图 片 ， 输 出 为 人 群 密度 图 。 网 络 结 ”3x3) 的 卷 积 核 尺 寸 ，Type3 中 卷 积 核 尺 寸 小 ， 对 于 提取 较 小 
构 由 两 个 主要 部 分 组 成 : 第 一 部 分 学 习 大 尺度 特征 ， 第 二 部 ”目标 的 特征 效果 好 ， 适 于 某 些 人 群 极 端 密集 ， 人 头 部 较 小 的 
分 恢复 图 像 大 小 。 网 络 层 越 高 ， 单 位 像素 中 原始 图 像 所 包含 。” 图 片 ， 因 此 MAE 相对 低 ， 但 Typel 更 具 广 泛 适用 性 ， 对 整 
的 信息 越 多 ， 也 就 是 感受 野 越 大 ， 通 过 池 化 合并 完成 ， 代 价 ”个 数据 集 的 预测 估计 均 表 现 良 好 。 考 虑 到 模型 鲁 棒 性 的 重要 


是 原始 图 像 中 的 信息 的 减少 和 丢失 。 由 于 池 化 的 存在 ， 后 层 。” 意义 ， 最 终 选 择 较 稳定 的 模型 。 测 试 结果 如 表 2 所 示 。 
中 的 特征 映射 的 大 小 会 越 来 越 小 ， 采 用 分 数 步 长 卷 积 〈 转 置 
十 十 
卷 积 ) 将 特征 图 的 尺寸 变 大 ， 一 定 程 度 上 补充 池 化 层 造成 的 @ 2 @ 
图 片 细节 损失 ， 如 图 4 a) 所 示 。 扩 张 卷 积 是 一 种 卷 积 的 思 
想 ， 在 不 增加 参数 数量 或 计算 量 的 情况 下 扩大 感受 野 。 在 扩 
张 卷 积 中 ， 具 有 kXk 的 小 尺寸 核 被 扩大 为 kt(k-1)G-1)， 扩 
张 率 为 r， 它 允许 灵活 聚合 多 尺度 信息 并 保持 相同 的 分 辨 率 ， 0 2 @ 
如 图 4 (b) 所 示 。 如 果 正 常 卷 积 核 (扩张 率 ==1) 尺寸 是 3x3， conv9X9 conv7X7 convSXS5 
则 其 感受 野 也 是 3x3 大 小 ， 卷 积 核 尺寸 为 3x3 扩张 卷 积 〈 扩 


张 率 = 二 2) ， 则 有 相当 于 5x5 大 小 的 感受 野 。 


max 
pooling 
conv3X3 
(a) 分 数 步 长 卷 积 (b) 扩 张 卷 积 
(a)Fractionally strided convolution (b)Dilated convolution max 
pooling 


图 4 两 种 卷 积 方式 
Fig.4 Twotypes of convolution 
通过 对 以 下 定义 的 每 个 人 的 位 置 为 中 心 的 2D 高 斯 内 核 
进行 求 和 来 计算 与 第 i 个 训练 图 像 块 对 应 的 真实 密度 图 : 
Di(*)= 2 C(x-%,6) (5) 


其 中 : o 是 二 维 高 斯 核 的 尺度 参数 ，P 是 人 群 位置 的 所 有 点 
的 集合 。 模 型 使 用 Torch 框架 na 在 NVIDIA TITAN-X GPU 上 罗 十 电 2 训 或 ; 1 


十 蕊 ; 
进行 训练 和 评 售 。 其 中 Adam 学 习 率 为 0.000 01，momentum Typei Type 2 
(动量 ) 为 0.9。 


本 图 5 四 种 结构 组 合 
3 ”实验 结果 


Fig.5 Four types of configuration 


本 文 分 别 在 三 个 公开 可 用 的 数据 集 Shanghai tech、 表 2 不 同 组 合 在 Shanghai tech 数据 集 上 实验 结果 对 比 
UCF_CC _5009 以 及 WorldExpo'10I9 进 行 实验 。 评 价 指标 使 用 Table 2 ” ”Comparison of experiments results on Shanghai tech dataset 
了 许多 现 有 人 和 群 计数 方法 所 使 用 的 标准 ， 平 均 绝 对 误差 Type Part_A Part_B 

(mean absolute error，MAE ) 与 均 方 误 差 (mean-square error, MAE MSE MAE MSE 
MSE) 上 度量。 标准 定义 如 下 : Tpyel 100.87 152.31 21.55 38.07 
MAE= > (ly = (6) Tpye2 103.01 161.98 24.82 45.81 
1 Tpye3 99.66 155.0 28.35 48.78 
1 A Tpye4 101.19 160.53 24.15 45.76 
MSE= | - 名 .1 Shanghai tech 数据 集 
其 中 :WN 是 测试 样本 数 ;y; 是 数据 集 图 片 中 实际 标记 人 数 ; 该 数据 集 包含 1 198 图 片 ， 共 330 165 人 。 数 据 集 由 两 
六 相应 的 估计 人 数 。 粗 略 地 说 ，MAE 表示 估计 的 准确 性 ， 部 分 组 成 : Part_A 部 分 中 有 482 幅 图 从 互联 网 上 随机 获取 ， 
MSE 表示 估计 的 鲁 棒 性 。 Part_B 部 分 中 716 幅 图 从 上 海 大 都 市 地 区 的 繁忙 街道 拍摄 。 
本 文 将 具 用 不 同 扩张 率 的 四 种 组 合 进行 比较 。Typel 为 人 群 密度 在 两 个 子 集 之 间 变 化 很 大 ， 使 得 在 人 数 估 计 上 比 大 


第 1 列 (扩张 率 =2) 与 第 2 列 (扩张 率 =3) 的 组 合 ，Type2 多数 现 有 数据 集 更 具 挑战 性 。 
为 第 2 列 与 第 3 列 〈 扩 张 率 = 4) 的 组 合 ，Type3 组 合 了 第 1 A 和 B 部 分 均 包 括 训 练 和 测试 集 A 部 分 的 300 张 图 片 
列 与 第 3 列 。 Type4 组 合 了 所 有 列 。 四 种 组 合 方式 结构 如 图 5 用 于 训练 ， 剩 下 的 182 张 图 片 用 于 测试 ，B 部 分 的 400 张 图 
所 示 。 片 用 于 训练 ，316 张 用 于 测试 。 其 中 训练 集 是 由 每 张 图 像 选 
实验 将 四 种 组 合 方式 的 模型 进行 分 别 训练 ， 最 终 测试 结 。 取 不 同位 置 的 九 个 图 像 块 共同 组 成 ， 尺 寸 为 原始 图 像 的 1/4 
果 如 表 2 所 示 。 其 中 Type3 在 Part_A 部 分 表现 出 最 好 的 预测 。 大 小 。 前 四 个 图 像 块 包 含 四 个 不 重 友 的 图 像 ， 而 其 他 五 个 图 
能 力 ， 但 模型 稳定 性 略 低 于 Typel。 分 析 原 因 如 下 : Type3 像 块 从 输入 图 像 中 随机 裁剪 。 模 型 测试 结果 如 表 3 所 示 。 


将 
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表 3 Shanghai tech 数据 集 密度 估计 误差 对 比 . 原 图 片 、 真 实 密度 图 及 预测 密度 图 ， 图 片 最 下 方 对 应 给 出 标 
Table 3 Comparison of estimation errors on Shanghai tech dataset. 计 人 数 (gt_count) 、 估 计 人 数 (et_count) 。 
Part A Part_B 表 6 基准 数据 库 参 数 
Method 
MAE MSE MAE MSE Table 6 Parameters of benchmark 
Zhang et alIg 181.8 277.7 32.0 49.8 数据 集 Num Max Min Ave Total 
Marsden et al. (18] 126.5 173.5 23.8 33.1 UCF_CC _50 50 4543 94 1280 63974 
MCNN!s] 110.2 173.2 26.4 41.3 WorldExpo'10 3980 253 1 50 199923 
Switching-CNNI2 90.4 135.0 21.6 33.4 Shanghai tech Part_A 482 3139 33 501 241677 
Cascaded-MTL DO 101.3 152.4 20.0 31.1 FMFCNN Part_B 716 578 9 124 88488 
FMFCNNI9 105.4 168.5 21.7 32.4 从 WorldExpo'10 数据 集 测试 结果 中 选取 高 中 低 密 度 人 
本 文 100.8 152.3 21.5 33.4 群 图 片 及 其 检测 效果 如 图 7 所 示 。 由 于 该 数据 集 生成 密度 图 
3.2 UCF_CC_50 数据 集 中 人 不 只 是 用 一 点 标记 头 部 ， 还 包括 躯体 部 分 。 与 其 他 数据 
UCF_CC_50 数据 集 包 括 50 个 具有 不 同 视角 和 分 辩 率 的 。” 集 生 成 密度 图 略 有 不 同 ， 但 训练 与 测试 参数 完全 相同 。 图 7 
图 像 。 每 幅 图 像 的 标记 人 数 从 94 到 4 543 ,平均 人 数 为 1 280。 中 三 列 图 片 从 左 至 右 依次 为 原 图 片 〈 来 源 于 WorldExpo'10 的 


按照 文献 [18] 中 的 标准 设置 执行 5 折 交 叉 验 证 。 测 试 结果 如 scel 与 sce5) 、 真 实 密度 图 及 预测 密度 图 ， 图 片 最 下 方 对 
表 4 所 示 。 给 出 标 计 人 数 (gt_count) 、 估 计 人 数 (et_count) 。 

表 4 UCF_CC_50 数据 集 密度 估计 误差 对 比 ~ Ee SE 

Table 4 Compariosn of estimation errors on UCF_CC_50 dataset 


苹 


Method MAE MSE 
Zhang et al. 467.0 498.5 
MCNN 377.6 509.1 
Marsden et al. 338.6 424.5 
Cascaded-MTL 322.8 397.9 
Switching-CNN 318.1 439.2 
本 文 305.3 429.4 


3.3 ”WorldExpo'10 数据 集 
WorldExpo'10 人 群 统计 数据 外 


首次 由 Zhang 等 人 引入 。 


油 


该 数据 集 包含 1 132 个 带 标签 的 视频 序列 ， 视 频 均 来 自 2010 

年 上 海 世 博 会 。 作 者 提供 了 总 计 199 923 名 行人 标签 ， 其 gt_count:3406 et_count:3289 
训练 集 有 3 380 帧 ， 共 103 个 场景 ， 每 个 场景 有 相应 的 透 1940 1803 
图 数据 ; 测试 集 包 括 五 个 不 同 的 视频 序列 ， 每 个 视频 序列 648 512 


含 120 个 标注 的 帧 ， 并 为 测试 场景 提供 了 五 个 不 同 的 感 兴 有 
区 域 (ROI) 。 与 前 两 个 数据 集 不 同 的 是 ， 该 数据 集 提 供 
视图 集 ， 且 人 群 密度 分 布 核 函数 包含 两 个 项 ， 头 部 为 标准 
2D 高 斯 核 表 示 ， 其 余 身体 部 分 为 二 元 正 ; 态 分 布 函数 。 
女 文献 [6] 的 工作 根据 透视 图 与 o=0.2*m(x) 的 关系 来 4 
密度 图 ， ml(z) 表示 图 片 中 代表 该 位 置 一 平方 米 的 像素 数量 
选取 其 中 两 个 场景 进行 测试 ， 结 果 见 表 5。 

表 5 WorldExpo'10 数据 集 密度 估计 误差 对 比 


Table 5 Compariosn of estimation errors on worldexpo'10 dataset 


图 6 UCF_CC_50 数据 集 检测 效果 
Fig.6 Estimation performance on UCF_CC_50 dataset 


Ud 


由 


pal 
o 


Method Scel Sce5 
Zhang et al. 9.8 3 
Shang et al.071 7.8 5.8 
MCNN 3.4 8.1 
Switching-CNN 4.4 5.9 
CP-CNNI0 2.9 5.8 gt_count:112 et_count:91 
本 文 3.3 4.2 46 31 
3.4 实验 总 结 4 5 
如 表 6 所 示 ， 将 三 个 基准 数据 库 的 参数 进行 比较 总 结 ， 图 7 WorldExpo'10 数据 集 检测 效果 
Num 是 图 片 的 数量 , Max 是 最 大 人 数 , Min 是 最 少 人 数 ，Ave Fig.7 Estimation performance on worldexpo'10 dataset 


是 平均 人 数 ，Total 是 已 标记 人 员 的 总 数 。 4 ”结束 语 

在 第 2 章 中 已 经 给 出 Shanghai tech 数据 集 高 中 密度 人 和 群 

的 图 片 测试 结果 ， 这 里 进一步 给 出 其 他 两 个 数据 集 的 检测 效 本 文 提 出 一 个 扩张 卷 积 与 分 数 步 长 卷 积 相 结合 的 多 元 卷 

果 。 从 UCF_CC_50 数据 集 测 试 结果 中 选取 高 中 低 密度 人 群 。 积 神 经 网 络 。 扩 张 卷 积 致力 于 扩大 感受 野 将 丰富 的 特性 纳入 

图 片 及 其 检测 效果 ， 如 图 6 所 示 ， 三 列 图 片 从 左 至 右 依次 为 ” 网 络 ， 使 其 能 够 更 好 地 学 习 全 局 特征 ， 从 而 统计 数据 集中 的 
大 计数 变化 。 此 外 ， 采 用 分 数 步 长 卷 积 层 作为 后 端 ， 以 恢复 


在 


个 


较 


Da 


前 期 阶段 经 过 最 大 池 化 层 造成 的 图 片 细节 损失 。 通 过 在 多 
数据 集 上 的 测试 ， 本 文 模型 在 密集 人 群 的 密度 估计 上 具有 
好 的 密度 估计 性 能 , 模型 结构 复杂 程度 适中 且 泛 化 能 力 强 ， 


[uy 


有 普遍 适用 性 。 
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